跳到主要内容

Agent 评测

分类

在线评测

在线评测是指讲用户真实的数据,作为数据集。然后去评测效果。

离线评测

使用我们构建的数据集,进行评测。

步骤评测

对于 rag 或者大模型中的每一个步骤。都存放在 span 中,也就是每个 span 都会包含 query,以及 output,那么就可以利用这两个参数进行测试了。不过这里的评测是没有标记结果的。但实际上可以根据评测集的数据来判断。

结果评测

对于 agent 输出的最终结果,进行评测。有标注/无标注均可。